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基于 内 存 的 外 存储 技术 综述 


Fa REC) TEY 
摘 要 闪存 (Flash) EWIE, kim MA MNF DRAM 和 磁盘 之 间 ， 而 且 密 度 比 DRAM 和 磁 
盘 高 ， 能 耗 比 它们 低 ， 因 此 近 几 年 基于 闪存 的 外 存储 技术 成 为 研究 的 热点 。 本 文 总 结 了 目前 基于 闪存 的 外 
存储 技术 ， 重 点 分 析 了 两 类 软件 体系 结构 ， 以 及 与 其 相关 的 研究 问题 和 关键 技术 。 并 于 对 研究 现状 的 
分 析 ， 我 们 认为 未 来 的 研究 方向 是 如 何 充分 发 挥 闪存 存储 器 的 最 大 价值 。 


Ba 


1 引言 


闪存 是 一 种 电 可 擦 除 可 编程 只 读 非 易 失 性 存储 器 ， 也 叫 Flash EEPROM ， 最 初 于 1984 
年 由 东芝 公司 的 狂 国 富士 雄 (Fujio Masuoka) 博士 发 明 。 早 期 由 于 价格 昂贵 ， 闪 存 最 先 被 应 
用 于 骨 入 式 系统 作为 标准 存储 器 。 随 着 器 件 制作 密度 的 提高 和 价格 的 降低 ,闪存 被 应 用 到 笔 
记 本 电脑 中 代替 磁盘 ， 以 及 被 应 用 到 企业 级 存储 的 高 端 存储 阵列 中 。 目 前 随 着 大 规模 数据 中 
心 的 电力 和 相关 的 冷却 开销 成 为 制约 数据 中 心 密度 和 能 力 增 长 越 来 愈 重要 的 因素 ， 低 能 耗 、 
高 性 能 的 闪存 已 被 引入 到 以 数据 处 理 为 中 心 (Data-Intensive Computing) 的 高 性 能 计算 系统 
中 BJ。 可 以 预见 ， 闪 存 的 应 用 将 越 来 越 广泛 。 


与 内 存 所 用 的 DRAM2 器 “ 表 1.DRAM、NAND 与 HDD 的 比较 中 


件 及 磁盘 相 比 ， 闪 存在 访问 延 iie iin is 

迟 、 传 输 带 宽 、 密 度 、 价 格 和 GUGABR <0.1hs ~100hs 3000~5000hs 
能 耗 方面 弥补 了 DRAM Ap 局 动 耗 能 CW/GB) 0.4 ~0.01-0.04 ~0.04 

盘 之 间 的 差异 。 表 1 给 出 了 三 待机 耗 能 ~25% 启 动 耗 能 <10% 启 动 耗 能 ”~20% 启 动 耗 能 
者 在 能 耗 、 读 写 延 迟 、 价 格 / 控 除 次 数 无 限制 10^ 无 限制 
容量 比 、 可 靠 性 方面 的 对 比 。 数据 保留 时 间  64ms 

可 以 看 出 ， 正 是 由 于 在 价格 、 价格 /容量 10 美元 /(GB 2 美元 /GB 0.1 美元 /GB 
性 能 、 能 耗 等 方面 的 综合 优势 ， 才 使 得 闪存 的 应 用 范围 越 来 越 广泛 。 


但 是 内 存 也 有 结构 上 的 缺点 : 每 个 存储 单元 只 有 在 探 除 以 后 才能 写 数据 , 并 且 擦 除 操作 
所 需 的 时 间 比 写 操作 多 一 个 数量 级 ; 另外 每 个 存储 单元 的 擦 除 次 数 有 限 , 而且 随 着 密度 增高 ， 
可 擦 除 次 数 减 少 。 这 些 缺 点 在 应 用 闪存 时 不 可 避免 , 因此 如 何 运 用 好 闪存 成 为 研究 内 存 的 热 
点 之 一 。 


因为 闪存 的 访问 延迟 、 传 输 带 宽 、 价 格 在 DRAM 和 磁盘 之 间 ， 而且 密度 比 DRAM 和 磁 
盘 高 ,能 耗 比 它们 低 , 所 以 闪存 存储 器 在 存储 系统 结构 中 应 用 于 哪个 层次 也 是 研究 热点 之 一 。 
闪存 在 存储 系统 可 应 用 的 层次 有 三 类 : 内 存 层 、 绥 存 层 和 外 存储 层 。 


e ATE: 将 闪存 用 于 内 存 层 的 研究 方向 主要 有 两 类 : 一 是 将 闪存 和 DRAM 组 成 同 
一 级 别 的 混合 内 存 外 ， 二 是 将 闪存 明确 地 作为 缓慢 的 二 级 内 存 分 区 供应 用 使 
用 中 I。 由 于 闪存 在 读 写 延迟 上 与 DRAM 相差 较 大 , 后 一 种 方式 的 整体 性 能 较 高 。 
而 第 一 种 方式 的 研究 方向 逐渐 转 到 由 读 写 延迟 更 接近 DRAM 的 Storage-class 


! Electrically-Erasable Programmable Read-Only Memory， 电 可 擦 可 编程 只 读 存 储 器 
? Dynamic Random Access Memory 动态 随机 存 取 存 储 器 
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基于 闪存 的 外 存储 技术 综述 


memory(SCM)"!:; DRAM 组 成 同一 级 别 的 混合 内 存 口 。 


e ZTE: d 


缓存 层 处 在 内 存 层 和 外 存储 层 之 间 ， 使 得 弥补 DRAM 和 磁盘 延迟 差 


T 


距 的 闪存 特别 适合 作为 缓存 991, 


e 外 存储 层 : 从 最 早 将 闪存 作为 嵌入 式 系统 的 外 部 存储 器 到 现在 将 闪存 作为 高 性 能 计 


算 系统 节点 的 存储 设备 中， 


闪存 的 重点 。 


因为 内 存 与 磁盘 可 


日 比 ， 共 有 高 性 能 、 低 能 耗 、 抗 震 等 特点 ， 


将 内 存 做 到 外 存储 层 的 尝试 一 直 是 学 术 界 和 工业 界 研究 


将 内 存 作 


为 外 存储 层 可 以 提高 系统 的 存储 性 能 、 访 问 速度 、 可 知性 ， 降 低 系 统 能 耗 。 目 前 将 


闪存 作为 外 存储 层 所 采 有 


的 软 硬 件 有 两 种 体系 结构 569: 一 是 设计 针对 闪 


存 的 文件 


系统 和 闪存 驱动 ， 底 层 对 应 的 是 Raw 闪存 〈 裸 闪存 ?); 二 是 在 设备 内 设计 闪存 转 
换 层 (Flash Translation Layer, FTL)， 对 外 提供 块 设备 访问 接口 ， 例 如 


(SSD). 


DESI E! 


将 闪存 作为 外 存储 层 是 本 文 的 关注 点 。 本 文 首先 简单 介绍 目前 广泛 使 用 的 两 类 闪存 ， 然 


后 分 别 分 析 总 结 了 基 了 


2 内存 简介 


闪存 的 外 存储 的 两 种 体系 结构 各 自 适 应 的 应 用 场景 、 优 缺点 以 及 需要 
研究 的 问题 。 最 后 对 基于 闪存 的 外 存储 技术 进行 总 结 展 望 。 


闪存 分 为 NOR. 闪存 和 NAND 内 存 两 类 ， 前 者 是 将 内 部 单元 连接 成 “或 非 ” 门 ， 后 者 


是 将 内 部 单元 连接 成 “与 非 ” 门 。 


二 者 的 共同 点 是 都 将 存储 单元 组 织 为 块 阵 列 。 块 是 擦 除 操 作 的 最 小 单位 , 擦 除 操作 将 块 


内 所 有 的 数位 重 置 为 “1”， 对 闪存 单元 的 数据 写 入 需要 完成 擦 除 操作 之 后 才能 进行 。 二 者 的 


HERU P. 


NOR 闪存 以 并 行 的 方式 连接 存储 单元 ， 


具有 分 离 的 控制 线 、 地 址 线 和 数据 线 ， 有 具有 NOR"! . NAND' 
较 快 的 读 速度 ， 能 够 提供 片上 执行 的 功能 ， 读 写 单位 字 节 页 

可 以 以 字 节 为 单位 进行 数据 访问 。 但 写 操作 读 延 迟 0.11us 25us 

和 擦 除 操作 的 时 间 较 长 ， 且 容量 低 、 价格 高 。 写 延 迟 llus/word 250hs/page” 
因此 NOR 闪存 多 被 用 于 手机 、BIOS 芯片 以 擦 除 延迟 600ms 2ms 
Je ON RRA PHIRI E o TEZE (RE) 低 高 

NAND FURTAS ANET 之 0 XP XH 

元 ， 复 用 端口 分 时 传输 控制 、 地 址 和 数据 信 一 近 除 次 数 Ht i 
号 ， 并 由 一 个 复杂 的 读 写 (VO) 控制 器 为 主机 提供 接口 。NAND 闪存 只 能 以 页 为 单位 进行 


数据 访问 。 由 于 对 一 个 存储 单元 


表 2.NOR 闪存 与 NAND 闪存 特性 对 比 


的 访问 需要 多 次 地 址 信号 的 传输 ， 且 每 次 访问 512B、2KB 


或 4KB 的 数据 ，NAND 内 存 的 读 取 速 度 较 慢 . 但 写 操 作 和 擦 除 操作 比 NOR 闪存 快 ， 且 容 


量 大 、 价 格 较 低 ， 因 此 基于 闪存 的 外 存储 器 一 般 都 以 NAND 闪存 为 主 。 


表 2 显示 了 NOR 闪存 与 NAND 闪存 特性 对 比 。 


当前 主流 的 NAND 闪存 分 为 SLC CSingle-level cell， 单 电 平 单元 ) 和 MLC (Multilevel 


cell， 多 电 平 单元 ) 两 利 


? 即 闪存 芯片 直接 连接 到 CPU(SoC), 并 且 能 够 直 
^ 此 处 涉及 的 NAND 产品 655 一 个 page 为 2KB，NOR 产品 的 一 个 word X 2B, 因此 一 个 page 55] 


接 被 操作 系统 读 取 


PF 类 型 。 前 者 每 个 存储 单元 (memory cell) 只 存储 单一 的 二 进 制 位 〈 即 
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F IK word. 


第 10 卷 第 4 


可 表达 2 个 值 )， 二 进 制 值 
BERKI: 后 者 每 个 存储 单元 可 存储 


2 个 或 3 个 二 进 外 


8 个 值 )。 因 


不 。 


3 


对 成 本 较 敏 感 ， 医 


此 ,MLC 比 SLC B 
更 便宜 ， 但 它 的 性 能 也 比 SLC 差 ， 且 
寿命 更 短 。 二 者 特性 的 对 比如 表 3 所 


br CHI n] 


Ent an 


两 个 电压 


表达 4 个 或 


闪存 文件 系统 技术 


在 Raw 闪存 上 开发 闪存 对 
行 设计 ， 并 利用 文件 系统 信息 为 内 存 存 储 提供 更 多 提高 
S kie a OSEE 
为 能 入 式 系统 外 存储 器 的 场景 ， 主 要 有 三 个 原 


同日 


EEK, 


信息 技术 快报 Vol.10 No.4 
Information Technology Letter Jul. 2012 
表 3. SLC 和 MLC 芯片 的 区 别 呈 ] 
种 类 SLC NAND 闪存 ” MLC NAND 闪存 
言 息 密度 “一 个 单元 只 存储 个 单元 能 存储 两 
MER R) 个 比特 (高 ) 
使 用 寿命 长 短 
RIER 2588 60H8 
FIER 250H8 90045 
探 除 延 迟 3.5ms 3.5ms 
成 本 高 低 


TA 


F 发 ,增加 了 


发 的 代价 


"E 


Ly 
U 


是 传统 文件 系统 基于 
i EUN XR E I 


JE 
其 


^ 短 , 代价 1 
基于 


氏 。 


目 
应 用 
它 


Và EV] T Ri 
年 发 起 设计 的 UBIFS0U 可 以 看 作 是 JEFS3, 其 开发 着 重 于 性 
闪存 文件 系统 中 较为 成 功 的 。 基于 闪存 的 文 伯 


典 Axis 通信 公司 于 1999 年 了 
前 JFFS 发 展 成 为 
在 Linux2.4 以 | 
Aleph One 公司 于 2002 年 开发 ，3.5 节 将 以 其 为 例 细 述 闪 存 文人 
和 格 莱克 斯 纳 (Thomas Gleixner)、 比 邱 茨 基 (Artem Bityutskiy) 等 人 于 2006 
的 提高 , 是 目前 基于 
此 本 章 先 简单 


采用 Raw 闪存 而 不 
改 盘 特性 设计 ， 在 Raw 闪存 上 运行 传统 文件 系统 性 能 和 可 靠 性 差 ， 三 


OK nlii 


EE TEM 


| 器 、 


K 动 和 闪存 文 件 系统 的 软件 体系 结构 可 以 充分 利用 内 存 特性 进 
E 以 及 降低 能 耗 的 机 会 。 


。 这 种 软件 体系 结构 适应 内 存 作 


一 是 嵌入 式 系统 体积 小 ， 能 耗 要 求 苛刻 ， 


设计 针对 闪存 文 从 


下 发 的 一 利 
两 个 版 本 JFFS1、JFFS2。 
上 版 本 


BIN 


介绍 目前 两 种 主流 的 闪存 驱动 ， 其 次 分 析 ， 


3.1 Flash 驱动 


当前 主流 的 内 存 引 


(Memory Technology Device) [J 和 
UBI (Unsorted Block Images) !!, 


MTD ff 4ER 


完成 文件 系 


制 。UBI 33 


闪存 设备 的 卷 管 
闪存 设备 上 管理 
UBIFS 就 是 基于 UBI 的 文件 系统 。U 
除了 将 逻辑 擦 除 块 映射 到 物 型 


物理 


现在 


是 对 不 同类 型 和 型 号 


存储 设备 提供 统一 的 读 写 管理 接口 ， 


的 


MTD 上 


统 对 闪存 芯片 的 访问 控 
屋 ， 是 针对 
理 系 统 ， 可 以 在 一 块 


多 个 届 辑 卷 。 


系统 的 应 用 较 在 个 人 


其 中 JFFS1 应 月 


电脑 、 数 据 5 


闪存 的 文件 系统 最 早 为 微软 在 1990 年 左右 设计 的 MFFSP!, 
针对 NOR. 闪存 存储 器 的 日 志文 件 系 统 JEFFS” 


HÆ Linux2.2 以 上 
h .YAFSS100 是 早期 针对 NAND Flash 的 文件 系统 中 较为 成 功 的 ， 
FAS. HI 


RE RII Rel 


闪存 转换 层 的 回 


F 系 统 均 运行 在 闪存 驱动 上 层 ， 因 


版 本 中 ， 


态 便 盘 ; 


| 


FP 心 等 场景 下 设计 的 周 


其 次 较为 成 功 的 是 瑞 


JFFS2 


BM 和 


E 擦 除 块 , 还 实现 了 全 局 


UBI 24527 $81 55 9« (Logic Erase Block, LEB) 的 集合 ， 每 
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总 结 基于 闪存 文件 系统 的 关键 技术 和 研究 热点 。 
K 动 有 MTD 4 UBI 与 MTD 特性 比较 

特性 /类 型 UBI MTD 

支持 读 写 擦 除 操作 是 是 

包含 擦 除 块 是 是 

实现 磨损 均衡 是 f 

支持 处 理 数位 翻转 是 f 

对 卷 自动 创建 、 删 除 、 重 定义 大 小 — 是 f 

支持 卷 更 新 操作 是 否 

支持 自动 改变 逻辑 控 除 块 的 操作 ”是 8 


BI 类 似 逻辑 卷 管理 (LVM, Logical Volume Management), 
的 擦 写 平衡 和 运输 读 写 错误 处 理 。 
个 逻辑 擦 除 块 都 可 以 映射 到 任 


cde 


意 物理 擦 除 块 (Physical Erase Block, PEB)， 这 些 映射 


的 特点 为 : 


提供 


可 以 目 动 创建、 


基于 闪存 的 外 存储 技术 综述 


UBI 管理 ， 对 


户 是 透明 的 。UBI 


删除 和 重 定义 大 小 的 着 


实现 了 在 整个 内 存 设备 的 磨损 均衡 (wear-leveling) 


1 
2. 
3. 透明 地 处 到 
4 


E 坏 掉 的 物理 擦 除 块 


可 以 最 大 限度 减少 由 于 数位 翻转 (bit-flips〉 引 起 的 数据 丢失 
MTD 特性 的 比较 如 表 4 所 示 。 
3.2 文件 系统 数据 存储 方式 


UBI 与 


闪存 探 除 后 才能 进行 写 操作 的 特性 使 得 针对 闪存 的 存储 都 采用 异地 更 新 的 策 
文件 系统 采用 日 志 结 


入 (log-structure， 如 医 


各 。JFFS 
1 (a) 所 示 )， 在 闪存 上 顺序 存储 元 数据 和 数据 。 


pa 


XP H RAER Y ENS, ES 
文件 系统 〈 如 YAFFS. UBIFS 等 ) 没有 强调 采用 顺序 存储 方式 ， 而 是 将 元 数据 和 数据 分 


— 


生 能 提高 ， 但 是 性 能 对 垃圾 回收 算法 依赖 性 高 。 一 些 


存放 ， 更 新 时 
写 入 到 新 地 址 并 
避免 了 原 地 更 齐 


读 性 能 要 优 了 


hi. A 


Hos our 
NAND 闪存 


的 物理 页 除了 包含 数据 


区 域 , 还 包 


合用 于 存储 控 


制 信息 


的 畏 


助 区 (spare 


area)。 基 于 
的 文件 系 


YAFFS) 利用 车 
该 页 的 元 数据 ， 


NAND 闪存 
s 〈 例如 
Bh DC efi 
减少 存储 


空间 和 加 载 


时 间 。 


RE, t 


完 出 适合 内 


KH “SHAH” Gopy-on-write? CA 
建立 与 元 数据 的 连接 , 同时 取消 过 时 数据 与 元 数据 的 连接 。 这 种 存储 方式 也 
F (in-place update )， 有 利于 在 闪存 


Z] 


1 (b) 所 示 ) 的 形式 : 将 更 新 的 数据 


建立 索引 ， 虽 然 不 能 消除 随机 写 ， 但 是 


日 志 
U= 
| | see 


(a) 日 志 结构 


更 新 的 数据 块 B 


(b)“ 写 入 时 复制 ”结构 
图 1. 两 种 数据 存储 方式 


存 异 地 更 新 特性 的 数据 存储 方式 是 提高 文件 系统 性 能 的 关键 之 一 。 
3.3 文件 系统 索引 的 数据 结构 
文件 系统 在 运行 时 需要 在 内 存 和 闪存 中 建立 索引 ， 以 便 找 到 数据 在 内 存 中 的 存储 位 置 。 


的 索引 加 载 至 


间 。 从 YAF 
内 存 ! 


中 的 任何 叶子 节点 的 更 新 都 导致 与 该 节点 相关 的 直到 模 
将 这 种 针对 闪存 使 用 的 B+ 树 称 为 “漫游 树 (Wandering tree)”. E 
的 示例 。 该 树 共 有 6 个 节点 : A-F。 如 果 更 新 节点 fF， 则 需要 在 
oO fé C 市 点 指向 节点， 基 


早期 的 文件 系统 (MFFS、JFFS1) 只 在 内 存 
| 内存， 这 使 得 系统 加 载 时 间 长 、 
线性 的 链表 结构 ， 一 个 文 从 
存 价格 的 降低 ,从 JEFS2 以 后 的 闪存 文件 系统 将 索引 存储 在 闪存 中 ， 
降低 了 加 载 时 间 和 内 存 占用 。 在 JFFS2 1 
台 ， 内 存 的 索引 结构 改 成 查询 时 间 更 短 的 树 结 构 。 而 在 
的 索引 结构 为 树 结构 , 在 闪存 上 也 采用 B+ 树 建立 索引 结构 。 在 该 B1 
点 存储 文件 系统 的 数据 ， 其 余 节 点 均 属 于 索引 节点 。 


FS1 开 


建立 索引 ， 因 此 加 载 时 需要 将 整个 文件 系统 


内 存 占用 多 ， 而 可 靠 性 低 。 内 存 中 索引 主要 是 


F 内 的 数据 块 以 链表 的 形式 存储 ， 查 询 节 点 时 也 非常 耗 时 。 随 着 办 
内 存 中 只 保存 部 分 索引 ， 
链表 改 成 了 哈 希 表 , 减少 了 查询 时 
UBIFS 中 ， 不 仅 
+ 树 中 只 有 叶子 节 
由 于 采用 异地 更 新 策略 ， 因 此 对 B+ 树 
节点 的 整个 “树枝 ”的 更 新 ， 所 以 又 


， 索 引 结构 


UA 


图 2 显示 了 在 漫游 树 上 更 新 
新 页 中 写 入 更 新 数据 F 
此 C 节点 需要 更 新 为 C， 节 点 以 指向 F' 节 点 。 基 于 此 ， 


N 


个 
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该 更 新 过 程 需 要 一 直 更 新 到 A 节点 才能 结束 。 这 种 更 新 开销 是 非常 大 的 ， 为 此 ，UBIFS 
采用 日 志 的 形式 记录 对 索 JAAHA 
引 贡 点 的 更 新 ， 先 将 索引 
更 新 写 到 日 志 (journal) 中 ， 
隔 一 段 时 间 后 提交 ， 减 少 
了 在 内 存 上 的 索引 的 频繁 
更 新 。 但 是 这 种 一 个 节点 


intct, M REBEL TTTTT. EERE 
此 有 人 提出 了 4 W, y 图 2. 在 漫游 树 上 更 新 过 程 示例 中 
树 是 一 个 扩展 的 B+ 树 ， 它 


有 效 节点 
的 逻辑 结构 与 B+ 树 相同 。 ed 
但 是 物理 结构 中 ，B+ 树 每 ii 
个 节点 占 闪存 的 一 页 而 4 
树 将 一 个 路 径 中 从 根 节点 
到 叶子 节点 均 存储 在 闪存 
的 一 页 中 。 因 此 在 4 树 ， 
更 新 数据 只 需 对 一 个 页 进 "a 
行 操作 ,降低 了 开展, 图 3 [DS 
显示 了 在 4 树 上 更 新 过 程 
示例 。 图 3. 在 4 NS IE LI 


综 上 , 文件 系统 索引 的 数据 结构 主要 以 减少 对 节点 查询 、 更 新 等 操作 的 开销 为 原则 ， 晶 
前 的 研究 主要 集中 在 对 B+ 树 的 设计 和 实现 上 的 优化 。 但 是 B+ 树 是 基于 人 磁盘 而 设计 的 ， 因此 
对 于 基于 闪存 特性 重新 设计 新 的 索引 数据 结构 ， 也 会 成 为 日 后 研究 的 方向 。 


3.4 利用 文件 系统 层 信息 实现 垃圾 回收 和 磨损 均衡 


由 于 基于 闪存 的 存储 如 果 都 采用 异地 更 新 的 策略 会 导致 系统 运行 过 程 中 无 效 数 据 的 增 
长 ， 因 此 必须 考虑 垃圾 回收 的 机 制 以 使得 系统 能 持 旨 卖 运行 。 闪 存 的 存储 单元 都 有 的 除 次 数 的 
限制 ， 并 且 随 着 内 存 密 度 的 增加 ， 闪 存 的 最 大 探 除 次 数 会 减 小 。 比 如 一 个 SLC 的 探 除 次 数 
最 高 可 为 10, MLC 的 擦 除 次 数 则 最 高 为 10[15]。 因 此 ， 无 论 哪 种 基于 闪存 存储 的 软件 体 
系 结构 都 必须 考虑 垃圾 回收 和 磨损 均衡 算法 。 本 节 侧 重 分 析 利 用 文件 系统 层次 信息 实现 垃圾 
回收 和 磨损 均衡 ，4.2 和 4.3 节 会 分 别 对 这 两 种 机 制 的 算法 本 身 进行 分 析 总 结 。 


文件 系统 层 拥 有 存储 设备 层 没 有 的 语义 信息 , 包括 应 用 层 的 读 写 操作 信息 以 及 文件 的 组 
织 方式 等 , 因此 利用 这 些 信息 可 以 使 垃圾 回收 或 磨损 均衡 算法 的 实现 更 加 有 效 。 如 何 利 用 这 
些 信息 设计 垃圾 回收 和 磨损 均衡 算法 是 基于 闪存 的 文件 系统 获得 更 高 性 能 的 关键 。 例 如 
CFFSD9 利 用 文件 系统 层 信息 将 闪存 的 控 除 块 分 成 元 数据 块 、 数 据 块 、 空 闲 块 三 类 。 因 为 元 
数据 更 新 比 数据 频繁 ,元 数据 无 效 的 频率 也 会 比 数 据 频繁 。 将 元 数据 单独 存放 可 以 在 垃圾 回 
收 时 所 需 复制 的 数据 量 最 少 ( 仪 复制 元 数据 )， 减 少 了 开销 。 但 这 导致 元 数据 块 比 数 据 块 的 
擦 除 次 数 更 多 ， 因 此 ，CFFS 记录 每 次 某 个 块 存储 的 数据 类 型 ， 如 果 此 次 是 元 数据 块 则 控 除 
后 将 其 设置 为 数据 块 ， 下 次 就 用 于 存储 数据 ， 这 样 就 可 实现 磨损 均衡 。SFSD "利用 文件 系统 
层 信 息 将 文件 数据 块 依照 被 再 次 更 新 的 可 能 性 〈 定 义 其 为 “热度 ”) 的 大 小 分 组 ， 在 垃圾 回 
收 时 依据 热度 选择 回收 块 ， 使 更 新 次 数 多 的 块 ( 含 有效 页 少 ) 容易 回收 ， 达 到 垃圾 回收 的 开 
销 最 小 。 


U 


ii 
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3.5 案例 
本 节 通 过 措 述 一 个 和 型 的 闪存 文件 系统 


YAFFSI 的 实现 , 使 读者 对 上 述 的 内 存 文 件 系 
统 技 术 有 更 好 的 了 解 。 


YAFSS1 是 2002 年 由 Aleph One 公司 开 
发 的 专门 针对 NAND 闪存 的 文件 系统 ， 可 以 
用 在 Linux 和 Windows CE 平台 上 。 在 Linux 
中 , YAFFS1 提供 直接 访问 文件 系统 的 应 用 程 
序 接口 (API)， 可 以 不 依靠 MTD 和 虚拟 文 
件 系 统 CVirtual File System, VFS) (当然 ， 
也 可 以 利用 MTD 和 虚拟 文件 系统 )。 图 4 显 
示 了 YAFSS1 在 文件 系统 中 的 位 置 。 YAFFSI1 
采用 了 针对 NAND 闪存 特点 的 数据 管理 方 。 vrS. 虚拟 文件 系统 

式 ， 以 页 为 单位 存储 数据 。 它 文 持 一 个 页 包 Yaffs direct: 文件 系统 和 NAND 闪存 之 间 的 
含 512 字 节 的 数据 和 16 字 节 的 辅助 区 的 Yaffs-guts: Ya 全 的 文件 系统 算法 它 给 出 了 
NAND 闪存 。 在 YAFFS1 中 页 被 称 作 chunk Yaffs 使 用 的 数据 结构 和 变量 


« 


NI 


CB, 32^ chunk 构成 一 个 block (4). 图 4. YAFFS1 在 文件 系统 中 的 位 置 中 
利用 chunk 中 的 辅助 区 中 的 8 个 字 节 来 存储 chunk 的 归属 信息 ， 利 用 的 信息 如 表 5 所 示 。 
Nur n PP poco TA ut iae 
完整 的 页 ， 也 就 是 一 个 chunk。 在 文件 系统 How. 

加 载 时 只 须 扫描 每 个 页 的 辅助 区 ， 就 可 以 在 ChunkID， 该 页 在 一 个 文件 内 的 索引 
内 存 中 建立 文件 系统 镜像 ， 因 此 加 载 时 间 较 号 ， 所 以 文件 大 小 被 限制 在 2 30, B 
快 。YAFFS1 在 内 存 中 建立 的 是 层次 结构 的 

索引 ， 称 为 文件 树 ， 每 一 个 文件 对 应 一 个 文 2 位 的 序列 号 | 
件 树 。 该 文件 树 是 由 Tnode 结 点 组 成 的 。 一 ByteCount， 该 页 内 的 有 效 字 节 数 
个 Tnode 为 32 B 内 存 区 ， 文 件 树 的 中 间 结 ObjectID， 文 件 ID 号 ， 用 来 唯一 标 
点 为 8 个 4 B 的 指针 指向 比 它 更 低 一 层 结 点 a x | 

的 内 存 地 址 ; 叶 结 点 为 16 个 2 B 的 指针 存储 Ecc, Yaffs Tags 本 身 的 ECC 检验 和 


页 物理 地 址 。 文 件 树 的 高 最 多 为 6 层 ， 这 主 Unused, WRA 1 

要 是 限制 对 树 操作 的 开销 , 但 也 因此 限制 了 存储 的 文件 大 小 。 在 极端 情况 下 文件 树 为 一 个 完 
全 的 8 又 树 ， 叶 子 结 点 共 86 个 ， 假 设 页 大 小 为 N 字 节 ， 则 文件 大 小 最 多 为 Nx28 字 节 ， 可 
满足 大 多 数 应 用 。 运 行 时 YAFFS1 维护 文件 树 ， 因 而 实现 了 占用 内 存 少 ， 查 询 速 度 快 ， 读 写 
速度 快 。 


YAFFS1 在 每 次 写 入 新 数据 时 判断 是 否 需 要 进行 垃圾 回收 ， 当 系统 的 空闲 块 小 于 某 一 浆 
值 时 启动 垃圾 回收 ， 和 否则 不 进行 。YAFFS1 的 垃圾 回收 策略 采用 将 贪心 策略 和 随机 选择 策略 
按 一 定 比例 混合 使 用 : 当 满 足 特定 的 小 概率 条 件 时 , 垃圾 回收 会 试图 随机 选择 一 个 可 回收 的 
页 面 ， 其 他 情况 下 ， 使 用 贪心 策略 回收 最 “ 脏 ” 的 块 。 
3.6 小 结 

本 节 概 述 了 目前 的 内 存 文件 系统 中 研究 热点 各 自 采 用 的 关键 技术 , 下 面 通过 表 6 对 本 节 
内 容 进 行 总 结 。 
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3&6. 闪存 文件 系统 关键 技术 总 结 


研究 热点 | 关键 技术 关键 点 


在 他 方式 | 日 志 结构 | 采用 日 志 、 异 地 更 新 ， 能 消除 随机 写 ， 读 性 能 差 
写 时 复制 | 不 采用 日 志 、 异 地 更 新 ， 不 能 消除 随机 写 ， 读 性 能 优 
链表 ”| 结构 简单 ， 查 询 时 间 长 

索 内 存 中 | 哈 希 表 | 查询 时 间 短 ， 和 需要 解决 键 值 冲突 

树 ”| 查询 时 间 适中 ， 利 于 索引 大 规模 数据 

内 | 二 | | 温 游 村 “| 利于 减少 系统 加 载 时 间 ， 数 据 更 新 时 需 更 新 整个 “树枝 ” 所 在 页 


ud 利于 减少 系统 加 载 时 间 ， 数 据 更 新 时 只 需 更 新 一 个 页 
利用 文件 系 | CFFS ”| 元 数据 与 数据 分 开 存储 在 不 同 物理 块 中 ， 利 于 垃圾 回收 和 磨损 均衡 


统 层 信息 SFS “| 文件 数据 块 依照 被 再 次 更 新 的 可 能 性 的 大 小 分 组 。 利 于 垃圾 回收 


4 ”基于 内 存 的 固态 硬盘 技术 


固态 硬盘 通过 内 部 的 闪存 转换 层 , 对 外 提供 块 设备 访问 接口 , 对 已 有 的 文件 系统 和 应 用 
程序 完全 兼容 , 减少 了 开发 和 测试 新 软件 的 代价 , 是 内 存 技术 能 迅速 得 到 广泛 应 用 的 重要 因 
素 之 一 。 但 将 其 加 入 到 传统 基于 磁盘 设计 的 文件 系统 和 应 用 之 下 , 不 能 充分 利用 闪存 技术 的 
特点 使 整体 性 能 最 优 。 由 于 与 传统 存储 体系 结构 兼容 , 目前 固态 硬盘 的 应 用 集中 在 个 人 电脑 、 
数据 中 心 等 场景 中 , 用 以 全 部 或 部 分 代替 磁盘 作为 系统 的 外 存储 设备 。 内 存 转 换 层 作为 固态 
人 硬盘 的 关键 技术 ， 自 然 成 为 研究 重点 。 本 节 分 析 和 总 结 办 存 转换 层 的 关键 技术 ， 并 介绍 了 一 
种 基于 固态 人 硬盘 的 新 型 体系 结构 。 


4.1 地 址 映射 


地 址 映射 机 制 是 用 来 建立 逻辑 地 址 和 闪存 存储 器 的 物理 地 址 之 间 的 映射 关系 , 是 将 上 层 
块 请 求 转换 成 固态 硬盘 内 部 请 求 的 关键 。 为 了 提供 可 接受 的 写 性 能 ,闪存 转换 层 采 用 异地 更 
新 的 机 制 ， 将 擦 除 和 写 操作 分 离 ， 有 效 提高 了 写 性 能 ， 但 要 求 动 态 的 地 址 映射 机 制 的 支持 。 
民 据 映射 表 的 粒度 不 同 ， 可 分 为 基于 页 的 地 址 映射 、 基 于 块 的 地 址 映射 、 混 合式 地 址 映射 和 
变 长 式 地 址 映射 。 


4.1.1 基于 页 的 地 址 映射 


第 一 个 闪存 转换 层 机 制 由 班 (Ban) 等 人 1995 年 设计 中 ， 并 在 几 年 后 被 PCMCIA 采用 
作为 基于 NOR 闪存 的 闪存 转换 层 标 准 户 ]。 它 采用 的 是 基于 页 的 映射 机 制 : 地 址 映射 表 以 页 
为 粒度 ， 包 含 的 表 项 数 与 闪存 存储 器 的 页 数 相 同 ， 图 5(a) 显示 了 这 种 结构 的 映射 图 。 为 了 
减少 内 存 的 占用 , 该 闪存 转换 层 将 整个 映射 表 存 储 在 闪存 中 。 这 种 机 制 对 于 以 字 节 为 寻 址 单 
位 的 NOR 型 闪存 是 适用 的 。 通 过 在 必要 的 时 候 分 配 兰 代 页 表 来 更 新 映射 页 ， 映 射 页 可 以 更 
新 。DFTLC2 是 第 一 个 将 上 述 的 基于 NOR 型 内 存 的 闪存 转换 层 机 制 转换 到 NAND 型 闪存 的 
闪存 转换 层 ， 省 略 了 替代 页 部 分 。 但 是 因为 将 所 有 的 改变 存储 在 内 存 中 ,一 旦 系统 宕 机 需要 
扫描 整个 闪存 设备 中 的 数据 信息 以 使 系统 达到 一 个 一 致 性 的 状态 。 因 此 DFTL 的 可 靠 性 低 。 
LazyFTL 在 基于 页 映射 的 基础 上 改善 了 可 靠 性 ， 并 减少 了 内 存 占用 。 它 将 闪存 分 为 数据 块 
区 域 (DBA)、 映 射 块 区 域 (MBA)、 冷 数据 区 域 (CBA )、 更 新 块 区 域 (UBA )， 其 中 数据 
块 区 域 、 更 新 块 区 域 相 当 于 在 闪存 中 设置 的 写 缓存 。 这 样 就 可 以 在 内 存 CRAMO 中 仅 维护 
少量 的 更 新 映射 表 和 部 分 全 局 映射 表 , 实现 基于 页 的 映射 机 制 。 LazyFTL 避免 了 大 量 内 存 的 
占用 ， 却 能 保持 映射 的 灵活 和 性 能 。 基于 页 的 映射 粒度 在 所 有 的 映射 粒度 中 灵活 性 最 高 、 性 
能 最 好 , 但 所 需 的 内 存 空间 较 大 。 尤 其 随 着 闪存 存储 器 的 容量 不 断 增 大 ， 基 于 页 的 地 址 映射 


— 


~ 
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对 内 存 大 小 的 要 求 难 以 得 到 满足 ， 为 此 有 了 下 面 几 种 方式 的 诞生 。 
4.1.2 基于 块 的 地 址 映射 


在 基于 块 的 地 址 映射 机 制 中 , 逻 得 地 址 包含 逻辑 块 号 和 块 内 侦 移 两 部 分 。 地 址 映射 表 只 
要 保存 逻辑 块 到 物理 块 的 映射 ， 届 辑 块 和 物理 块 的 块 内 偏 移 相同 。 Re 
构 的 映射 图 。 NFTLsP 是 一 类 典型 的 基于 块 的 地 址 映射 机 制 。 它们 为 每 个 需要 更 新 的 数据 央 
维护 一 个 或 多 个 替换 块 ， 用 来 存储 更 新 的 数据 。 由 于 块 内 顺序 存储 的 限制 ， 对 某 页 的 多 次 更 
新 将 占用 多 个 替换 块 ， 导 致 日 志 块 的 空间 利用 率 很 低 。 可 见 ， 块 级 映射 的 优点 是 地 址 映射 表 
规模 小 ， 节 和 省 存储 空间 ， 缺 点 是 因 粒 度 太 大 而 缺乏 灵活 性 ， 导 致 内 存 的 空间 利用 率 低 。 


闪存 块 逻辑 地 址 闪存 块 


(a) 页 映射 FTL (b) 块 映射 FTL 


DS 


5. NIEPE n p gp pup 


4.1.3 混合 式 地 址 映射 


混合 式 地 址 映射 机 制 指 的 是 对 频繁 更 新 的 数据 维护 基于 页 的 地 址 映射 表 , 而 对 大 量 的 其 
他 数据 维护 基于 块 的 地 址 映射 表 。 这 种 映射 机 制 利 用 较 少 的 内 存 空间 开销 提供 了 高 灵活 性 和 
高 性 能 ,因此 是 目前 应 用 最 广泛 的 映射 机 制 。 这 类 映射 机 制 的 早期 思想 是 将 闪存 分 成 数据 块 
和 替换 块 ， 蔡 换 块 作为 更 新 的 缓存 维护 基于 页 的 映射 而 数据 块 维护 基于 块 的 映射 。BASTC 
是 第 一 个 采用 混合 式 地 址 映射 机 制 的 办 存 转换 层 。 它 克服 了 NFTLs 中 对 蔡 换 块 顺序 存储 的 
限制 , 更 新 的 数据 按 写 操作 的 先后 在 对 应 的 替换 块 中 依次 存储 , 提高 了 蔡 换 块 的 空间 利用 率 。 
由 于 在 每 页 的 空闲 区 中 存储 对 应 的 逻辑 地 址 , 内 存 缓存 中 地 址 映射 表 的 大 小 与 基于 块 的 地 址 
映射 机 制 相 同 。 但 是 由 于 替换 块 与 数据 块 一 一 对 应 , 导致 BAST 策略 很 容易 因为 频繁 更 新 的 
数据 块 用 光 空 亲 AR 这 被 称 为 块 的 “thrashing( 颠 租 )” 问 题 。 为 了 解 
决 这 个 问题 ，FASTC 机制 被 提出 。FAST 进一步 解除 对 替换 块 的 限制 ， 允 许 任 何 数据 块 的 
更 新 数据 存储 在 任意 葵 换 块 的 任意 位 置 。 这 进 步 提高 替换 块 的 空间 利用 率 ， 降 低 垃 圾 回收 
的 频率 ， 提 高 了 性 能 


因为 数据 在 蔡 换 块 中 是 乱 序 存 储 , 在 数据 块 中 是 顺序 存储 ,因此 混合 式 地 址 映射 在 将 替 
换 块 和 数据 块 中 的 数据 合并 时 会 产生 三 种 合并 操作 : 交换 合并 、 部 分 合并 、 全 合并 。 当 替换 
块 中 的 数据 全 部 更 新 ， 对 应 的 数据 块 中 数据 全 部 失效 时 ， 只 需 将 蔡 换 块 置 成 新 的 数据 块 ， 作 
废 原先 的 数据 块 ， 这 种 合并 为 交换 合并 。 当 替换 块 中 的 数据 部 分 顺序 更 新 、 对 应 的 数据 块 依 
然 有 有 效 数据 时 , 需要 将 数据 块 中 的 有 效 数 据 写 入 到 替换 块 中 , 再 将 蔡 换 块 置 成 新 的 数据 块 ， 
作废 原先 的 数据 块 ， 这 种 合并 为 部 分 合并 。 当 替换 块 中 的 数据 部 分 无 序 更 新 ,对 应 的 数据 块 
依然 有 有 效 数 据 时 ， 需 要 分 配 新 的 空闲 块 ,将 蔡 换 块 和 数据 块 中 有 效 数 据 顺 序 写 入 到 新 的 衬 

闲 块 ， 原 先 的 替换 块 和 数据 块 作废 ， 这 种 合并 操作 为 全 合并 。 从 合并 过 程 中 可 以 看 出 部 分 合 
并 和 全 合并 是 混合 式 地 址 映射 独 有 的 ， 并 且 全 合并 的 开销 最 大 ， 要 尽量 避免 。 但 是 ， 随 独 数 
据 在 蔡 换 块 中 的 顺序 被 打 乱 ， 出 现 全 合并 的 概率 就 会 加 大 。 因 此 后 来 出 现 的 混合 式 地 址 映射 
的 闪存 转换 层 以 平衡 蔡 换 块 空间 利用 率 和 减少 合并 操作 的 开销 为 目的 。 超 级 块 策略 5 和 
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SASTB0 策 略 均 是 将 N 个 数据 块 对 应 K 个 替换 块 ,不 同 的 是 


存 基于 页 上 
种 策略 的 
会 导致 它 人 
同时 保证 垃圾 回收 开销 尽 可 能 
更 新 的 “ 热 ” 数 据 写 到 热 分 区 


RI 


< 同 问题 是 需要 提前 


HEFTL 策略 改变 了 以 前 的 混合 式 地 址 映射 机 


LM, SAST 策略 限 种 


Vol.10 No.4 
Jul. 2012 


馈 级 块 策略 在 物理 块 的 空 闪 区 保 


志 块 的 数量 


E 


| 
根据 访问 


并 将 基 


6 


小 。 例 如 对 于 大 的 写 请 
的 随机 日 志 


页 的 映射 表 保 存在 内 存 
模式 调节 参数 (N、K 等 )， 因 
门 的 性 能 变 差 。LASTE” 策略 将 替换 块 分 成 不 同 的 功能 区 ,以 充分 利 月 
求 ， 数 据 写 3 
， 其 他 的 写 请 求 被 写 到 “ 冷 ” 分 区 中 。 


加 的 基本 思想 ， 


P. xx 
为 访问 模式 改变 可 能 
HERD), 


志 区 中 ， 对 于 频繁 


下 顺序 日 


它 没有 将 基于 页 映射 的 块 


作为 更 新 的 缓存 ， 而 是 采用 基于 哈 希 的 热 数 据 鉴别 技术 站， 使 得 被 鉴别 为 存储 频繁 更 新 的 


“ 热 数 据 块 ” 采 月 


月 基 于 页 的 地 


真正 频繁 更 新 的 数据 块 采 用 基于 页 的 地 址 映射 的 混合 式 地 址 映射 机 # 


址 映射 机 制 ， 其 余 块 采 朋 


HE] 


F 块 的 地 址 外 


里 。 这 种 策略 达到 了 
BAJ EL, 但 是 随 着 访问 


模式 的 改变 ， 一 些 热 数据 块 可 
会 增加 额外 的 开销 。 


4.1.4 变 长 式 地 址 映射 


能 不 再 频繁 更 新 ， 需 要 从 基 了 


页 的 映射 变 为 基 了 


F 块 的 映射 ， 这 


AET u 树 结构 的 an -FTLEI 可 以 依据 写 请 求 的 大 小 调节 映射 的 粒度 。b -FTL RUF 树 的 


性 


质 对 于 大 的 顺序 写 请 


求 的 映射 采用 粗 粒度 ,而 对 于 小 的 随机 写 请 


得 整体 的 映射 机 制 既 保持 了 灵 
混合 式 地 址 映射 的 一 种 ， 但 是 
每 个 写 请 求 的 特征 为 其 分 配 适 
只 能 依靠 树 的 形式 实现 ， 因 出 


^N j 
设计 高 效 的 地 址 映射 机 制 


地 址 映射 主要 以 既 保 证 映射 的 
方向 。 


4.2 垃圾 回收 


" 
U 


根据 3.4 节 所 述 ， 基 于 闪存 日 


活性 又 减少 了 内 存 占 月 
不 同 于 混合 地 址 映射 人 为 地 


日 。 严格 地 说 ， 这 种 变 长 式 地 址 即 
固定 映射 粒度 ，b -FTL 可 以 根据 


求 的 映射 采用 细 粒 度 , 使 
UR e 


ELT 
地 址 映射 会 增加 这 类 映射 机 


是 保证 


[5i 


射 粒 度 ， 对 负载 更 具 适 应 改 
出 的 额外 


态 人 硬盘 性 能 的 关键 。 从 本 节 所 述 可 以 看 


PAEK RHE HE BLAST 


L o 然而 这 利 
销 。 


L| 
Li 


上 内 存 转 换 层 


auti 


E、 有 效 性 ， 又 减少 内 存 的 占 


为 主要 的 设计 原则 和 研究 


的 存储 系统 | 
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于 采用 异地 更 


此 都 需要 考虑 垃圾 回收 机 


所 ， 因 


制 。 垃 圾 回收 过 程 首先 选择 一 个 块 作为 回收 对 象 ,， 将 其 中 的 有 效 页 复制 到 一 个 空闲 块 中 ， 然 
后 更 新 地 址 映射 表 , 擦 除 该 块 ， 最 后 把 它 加 入 空闲 块 列表 中 。 由 于 垃圾 回收 的 过 程 涉 及 数据 
复制 、 探 除 等 操作 ,垃圾 回收 机 制 的 优 劣 影 响 固 态 硬盘 的 读 写 性 能 和 可 知性 ， 因 此 成 为 固态 
硬盘 性 能 瓶颈 。 在 目前 基于 闪存 的 存储 技术 〈 包 括 内 存 文 件 系统 和 闪存 转换 层 ) 的 基础 上 ， 
从 垃圾 回收 的 过 程 可 以 看 出 : 垃圾 回收 算法 中 最 需要 考虑 的 关键 问题 是 回收 块 选择 。 


4.2.1 回收 块 的 选择 : 


选择 什么 特征 的 块 进行 回 


回 


收 块 的 选择 是 基于 闪存 存储 技术 研究 的 习 


收 不 仅 影响 垃圾 回 
点 问题 。 加 


收 的 收益 ， 


收 块 选择 算法 应 以 增 大 一 次 垃圾 


因此 
回收 


还 影响 对 闪存 的 磨损 均衡 。 


的 收益 以 便 尽 可 能 减少 对 随机 写 操作 的 影响 , 并 且 尽 可 能 使 块 磨 损 均 衡 以 增加 办 存 的 寿命 为 


原则 。 目 前 可 总 结 为 两 类 思想 。 


第 一 种 思想 为 贪心 算法 , 每 次 选择 有 效 页 数 最 少 的 块 进行 加 


回收 回收 
此 很 多 注重 地 址 映射 机 4 

通过 设计 有 效 的 地 址 映射 机 制 
收 。LazyFTL 定义 了 块 的 开外 


站 最 多 的 空间 ， 使 得 
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AE He 


收益 最 大 ， 但 不 一 定 能 保证 磨 


剖 的 内 存 转 换 层 选择 该 算法 , 至 于 减少 垃圾 回收 的 7 
Jin, u-FTL 直接 选择 有 效 页 数 最 少 的 块 进行 回 


RSKI. 


肖 (cost) 公式 〈 见 公式 1 )， 选 择 cost 最 低 的 块 进行 
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收 。 这 种 算法 可 使 一 次 垃圾 
损 均 衡 。 仿 心算 法 实现 简单 ， 因 
开销 和 磨损 均衡 可 


回收 。 


基于 闪存 的 外 存储 技术 综述 


Cost =(C 


Tead 


RE Cag) Ns 十 C osse (公式 1) 
JU : C ea x C wrie Chs 是 读 、 写 、 探 除 延迟 ， Ns 是 该 块 有 效 页 的 数量 


从 公式 1 中 可 以 看 出 LazyFTL 的 回收 块 选择 算法 依然 属于 贪心 算法 。 超 级 块 策略 的 回 
收 块 选择 算法 整体 思想 为 贪心 算法 , 但 是 考虑 了 垃圾 回收 过 程 中 避免 全 合并 的 操作 。 它 优先 
从 没有 有 效 页 的 块 中 选择 能 进行 交换 合并 的 块 进行 回收 , 如 果 没 有 则 从 最 近 最 少 更 新 的 块 中 
选择 能 进行 部 分 合并 的 块 进行 回收 ， 如 果 依 然 没 有 则 选择 有 效 页 最 少 的 块 进行 全 合并 回收 。 

第 二 种 思想 可 以 总 结 为 效益 -开销 比 算法 ， 选 择 该 值 最 大 的 块 进行 回收 。 依 据 公 式 定 义 
不 同 ， 不 同 的 算法 选择 的 回收 块 侧重 点 不 同 。 在 川口 (Kawaguchi) 等 人 设计 的 一 个 基于 内 
存 的 转换 层 B9 中 ， 收 益 / 开 销 比 (Benefit/Cost) 的 定义 如 公式 2 所 示 。 


Benifit / Cost = agex(1—u)/ (2u) (公式 2) 


AP: age 是 该 块 最 后 一 次 改变 的 时 间 ，u 是 有 效 页 数 的 比例 

该 公式 可 以 保证 回收 到 开销 小 收益 大 而 且 更 新 频率 低 的 块 , 这 种 算法 可 以 间接 降低 垃圾 
收 的 次 数 ， 实 现 磨 损 均 衡 。 

威 尔 斯 (Wells) 等 人 设计 的 一 个 基于 磨损 均衡 的 擦 除 算法 专利 利用 公式 3 选择 回收 
的 块 。 


Iz] 


score = W, x obsolete + W, x (max {erasures} — erasures) (公式 3) 


式 中 : obsolete 是 该 块 无 效 页 的 数量 ，max{erasures} 是 当前 所 有 闪存 块 中 最 大 的 擦 
除 次 数 ，erasures 是 该 块 已 经 擦 除 的 次 数 ，W、W, 是 权重 ， 二 者 之 和 应 为 1 


权重 值 可 以 依据 空闲 块 的 多 少 预先 设 定 。 当 空闲 块 少时 Wi 值 较 大 ， 侧 重 垃 圾 回收 的 效 
益 ; 当 衬 闲 块 多 时 Wo 值 较 大 ， 侧 重 垃圾 回收 的 磨损 均衡 。 这 种 算法 在 回收 块 选 择 时 既 考虑 
了 效益 又 考虑 了 磨损 均衡 ， 但 缺点 是 权重 值 需 要 预先 设 定 ， 不 能 适应 系统 的 变换 。 为 此 算法 
CICL (cleaning integrated with cycle leveling) 53 被 提出 。CICL 算法 在 公式 3 的 基础 上 将 权 
重 改 为 依据 当前 内 存 块 中 探 除 次 数 的 差 值 计 算出 来 的 单调 函数 ， 从 而 可 以 自 适 应 系统 的 变 
化 。 


还 有 一 种 回收 块 选择 策略 5 采用 了 上 述 两 种 思想 。 当 系统 的 空闲 块 下 降 到 一 定 闪 值 时 
采用 贪心 算法 回收 块 ， 否 则 采用 第 二 种 思想 。 


从 本 节 中 可 知 , 回收 块 的 选择 需要 平衡 回收 的 效益 和 磨损 均衡 , 既 减 少 垃圾 回收 的 开销 
又 延长 基于 闪存 存储 系统 的 使 用 寿命 。 


4.3 磨损 均衡 


依据 3.4 节 所 述 ， 为 了 实现 较 长 的 寿命 和 良好 的 可 靠 性 ， 磨 损 均 衡 算法 是 基于 内 存 存储 
技术 必须 考虑 的 问题 ,自然 也 是 闪存 转换 层 技术 研究 的 重点 。 磨损 均衡 算法 的 目标 是 尽 可 能 
平均 每 个 内 存 擦 除 块 的 擦 除 次 数 以 增加 办 存 的 使 用 寿命 。 从 4.2 节 中 可 知 ， 由 于 垃圾 回收 过 
程 中 涉及 到 擦 除 操作 ,磨损 均衡 是 垃圾 回收 算法 需要 考虑 的 重要 方面 。 但 如 果 仅 在 垃圾 回收 
过 程 中 考虑 , 无 法 在 内 存世 片上 所 有 的 块 范围 内 实现 磨损 均衡 。 因此 还 需要 设计 全 局 的 磨损 
均衡 算法 ， 本 节 总 结 了 这 部 分 技术 (包括 内 存 文 件 系统 和 闪存 转换 层 )。 
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目前 全 局 的 磨损 均衡 算法 的 主要 思想 是 每 
用 随机 选择 目标 的 形式 , 每 隔 一 定数 目的 擦 除 操作 随 
采用 这 种 方式 ， 每 执行 100 次 擦 除 ， 系 统 随机 地 回 


行 交 换 以 达到 磨损 均衡 的 目的 。 早期 采 
机 地 选择 一 个 块 进行 擦 除 。JFFS 系统 即 


局 一 定时 间 , 将 闪存 存储 器 上 的 冷 、 热 数据 进 


收 一 个 只 包含 有 效 页 面 的 块 。 这 种 随机 选择 擦 除 块 加 
除 块 的 擦 除 次 数 ， 但 是 磨损 均衡 的 实现 是 粗 粒度 的 ， 没 有 针对 性 。 洛 夫 格林 〈Lofgren ) 
人 在 其 设计 的 一 个 磨损 均衡 的 专利 中 中 ， 基 于 探 除 次 数 实现 静态 磨损 均衡 。 该 方法 保 旨 


收 的 算法 实现 简单 , 不 需要 记录 每 个 擦 


^ 
于 


个 空 闪 块 ， 当 系统 当前 块 中 擦 除 次 数 最 大 值 与 最 小 


由 之 差 超过 一 定 阐 值 时 , 将 擦 除 次 数 最 少 


的 块 的 数据 复制 到 空闲 块 ! 


， 擦 除 次 数 最 大 的 块 的 数据 复制 到 擦 除 次 数 最 少 的 块 中 ， 


回收 探 


除 次 数 最 大 的 块 作为 空闲 块 。 这 种 方式 实现 的 磨损 均衡 更 有 针对 性 , 但 是 需要 记录 每 个 擦 除 


块 的 擦 除 次 数 信 息 。 为 了 减少 内 存 空间 的 占用 ， 
( group-based wear leveling algorithm) [1 被 提出 。 它 将 n 个 擦 除 块 看 成 一 个 组 ， 在 内 存 


法 
mi 


2N 


一 种 基于 块 组 的 静态 磨损 均衡 全 


保留 块 组 的 擦 除 次 数 。 这 种 方式 需要 选择 合适 的 块 组 大 小 , 以 及 有 效 地 利用 块 组 的 控 除 次 数 


信息 实现 更 有 针对 性 的 磨损 均衡 算法 。 
4.4 案例 


本 节 通 过 一 个 典型 的 内 存 转换 层 : LazyFTL 的 具体 实现 , 使 读者 对 上 述 总 结 的 基于 闪存 


的 固态 硬盘 技术 有 更 好 的 了 解 。 


LazyFTL 采用 基于 页 的 地 址 映射 ， 但 是 
通过 采用 一 个 更 新 的 缓存 (buffer， 就 像 在 混 
合式 地 址 映射 中 的 替换 块 ) 提供 灵活 高 效 的 
地 址 映射 ， 同 时 又 保持 了 可 靠 性 和 一 致 性 。 
如 4.1.1 节 所 述 LazyFTL 将 闪存 存储 阵列 分 
为 四 部 分 :数据 块 区 域 、 映 射 块 区 域 、 冷 数 
据 区 域 、 更 新 块 区 域 。 除 了 映射 块 区 域 以 外 ， 
其 他 部 分 都 用 来 存储 用 户 数据 。 图 6 显示 了 
LazyFTL 的 结构 。 全 局 映射 表 (GMT) 映射 
数据 块 区 域 与 逻辑 块 的 对 应 关系 ， 全 局 映射 
表 以 页 为 粒度 存储 在 映射 块 区 域 中 。 FTL 中 
的 SRAM 采用 最 近 最 少 使 用 算法 (LRU, Least 
Recently Used) 绥 存 一 部 分 全 局 映射 表 以 提高 
映射 速度 。 第 二 级 映射 表 一 一 全 局 映射 目录 
(GMD) 存储 在 SRAM ! 


， 它 维护 全 局 映射 表 中 所 有 有 效 页 的 映射 信息 。 冷 数据 区 域 用 来 
存储 冷 数 据 、 更 新 块 区 域 用 来 存储 更 新 的 数据 。 
域 ， 延 迟 对 存储 在 内 存 上 的 全 局 映射 表 的 改变 。 
写 操作 。 当 前 更 新 块 写 满 后 , 另 一 个 空闲 块 被 分 配 变 成 新 的 更 新 块 。 同 样 , 在 冷 数据 区 域 中 ， 


全 局 映射 目录 


全 局 
映射 表 必 


存储 器 


垃圾 收集 
图 6. LazyFTL 的 结构 


因此 LazyFTL 通过 冷 数据 区 域 和 更 新 块 区 
更 新 块 区 域 中 设 有 当前 更 新 块 (CUB ) 用 于 


有 一 个 当前 冷 数据 块 (CCB) 处 理 移动 数据 页 操作 。LazyFTL 为 冷 数据 区 域 和 更 新 块 区域 的 


数据 建立 另外 一 个 基于 页 的 地 址 映射 表 一 一 更 新 映射 表 CUMT)， 更 新 映射 表 以 哈 希 表 或 搜 
索 树 等 方式 存储 在 SRAM 中 。 由 于 LazyFTL 将 冷 数据 区 域 和 更 新 块 区 域 的 擦 除 块 数量 设置 
小 ， 对 其 操作 的 开销 很 低 。 


因此 更 新 映射 表 的 实体 笑 


得 很 小 ， 


当 冷 数据 区 域 或 者 更 新 块 区 域 的 擦 除 块 已 达到 规定 数量 


,需要 执行 转换 操作 (Convert 


Operation), 2E P: CIO 在 冷 数 据 
映射 表 中 该 块 有 
块 转换 成 数据 块 区 域 中 的 数据 块 ， 
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区 域 或 者 更 新 块 区 域 中 选中 一 个 目 
效 页 对 应 的 映射 删除 ;(3) 在 全 局 映射 表 中 于 
因为 在 LazyFTL ' 


标 块 ;，(2) 将 更 新 
建立 新 的 映射 ; (4) 直接 将 目标 
数据 块 区 域 的 数据 块 也 是 乱 序 存储 的 。 


基于 闪存 的 外 存储 技术 综述 


这 种 转换 操作 的 开销 仅 体现 在 更 改 全 局 上 映射 表 中 , 因此 这 种 操作 的 开销 比 混合 映射 机 制 中 的 


采用 贪心 算法 。LazyFTL 的 垃圾 回 
的 数量 小 于 一 定 阔 值 时 ， 触 发 垃圾 


4.2 节 中 已 


全 合并 操作 的 开销 小 得 多 。 转 换 操 


于 无 效 页 更 “ 冷 ”， 


因此 将 世 


什 中 所 选 的 块 为 需要 更 改 全 局 映射 表 中 表 项 最 少 的 块 , 即 
收 操作 针对 数据 块 区 域 和 全 局 映射 表 区 。 当 系统 中 空闲 块 


回收 操作 。 垃圾 回收 块 的 选择 采用 贪心 算法 ， 有 具体 实现 在 
述 。 值 得 关注 的 是 当选 中 的 回收 块 是 数据 块 区 域 时 ， 意 味 着 其 中 的 有 效 页 相对 
中 的 有 效 页 复制 到 冷 数 据 区 域 区 中 的 CCB。 


LazyFTL 没有 实现 针对 性 的 磨损 均衡 算法 , 不 过 通过 擦 除 块 在 上 述 四 个 区 域 的 轮换 , 能 


一 定 程度 上 达到 磨损 均衡 。 


通过 上 面 对 LazyFTL 实现 的 
磨损 均衡 机 制 不 是 孤立 的 而 是 相互 联系 、 相 互 约束 的 。 
虑 ， 使 得 闪存 转换 层 整体 性 能 最 


述 可 知 : 闪存 转换 层 ! 


地 址 映射 机 制 、 垃 圾 回收 机 制 和 


优 。 


4.5 ioMemory!; 一 种 新 型 体系 结构 


相当 长 时 间 以 来 ， 固 态 便 
盘 总 是 将 内 存 转换 层 做 在 设备 
内 部 ， 使 设备 的 上 层 软件 可 以 


像 使 用 磁盘 一 样 使 用 固态 人 
盘 。 但 是 这 也 导致 了 数据 流 需 
KALMRE] (RAID) f 


TET 


de. IRA RAe AE SEA EIT A 
必要 的 数据 转换 和 队列 等 待 才 
能 进入 内 存 ， 这 必然 增加 访问 
的 延迟 。 但 是 固态 便 盘 经 过 长 


时 间 的 开发 应 


]， 己 经 有 相当 


成 熟 实 用 的 技术 。 为 了 既 能 保 
留 固态 便 盘 本 身 己 有 的 技术 优 
势 又 能 减少 数据 流程 ，Fusion- 


IO 公司 


发 了 ioMemory ^l 


Re ioMemory 平台 是 基于 固态 硬盘 的 一 种 新 型 体系 结构 ， 其 
可 以 看 出 ioMemory 架构 是 将 针对 闪存 特征 采取 的 算法 (Remapping, 


图 7 所 示 。 从 图 
Wear-leveling 等 ) 从 固态 硬 
盘 的 内 部 闪存 转换 层 移 到 主 
机 的 软件 层 一 虚拟 闪存 存储 
E CVSL, Virtualized Flash 
Storage Layer)， 使 得 数据 不 
必 在 磁盘 阵列 控制 器 、 奶 入 
式 处 理 器 等 层 中 进行 不 必要 
的 数据 转换 、 队 列 等 待 等 ， 

减少 数据 处 理 流程 ， 降 低 延 
迟 和 能 耗 。 图 8 显示 了 传统 
固态 人 硬盘 和 ioMemory 方式 
数据 流程 对 比 ， 从 图 中 的 数 
字 可 以 看 出 ioMemory 方式 


逻辑 块 


(物理 大 小 ) 选项 : 读 


4 ^U 
E 


固态 硬盘 


(a) 


D 


因此 在 设计 闪存 转换 层 时 ， 应 全 面 考 


CN 


+ 


mE 


7. 传统 固态 硬盘 架构 (a) 和 ioMeomory 架构 (bf 


与 传统 固态 人 硬盘 架构 的 对 比如 


RAID 
控制 器 EORR nang 
理 器 
> 2 |m » 3 
) 
m[5]« m 闪存 


控制 器 


闪存 控制 器 


(b) ioMemory 数 据 流程 


图 8. 传统 固态 硬盘 
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和 ioMemory 方式 数据 流程 对 比 [ 


等 应 


降低 延迟 


ESSE 


, 


x 


了 可 靠 性 。 


目前 基于 ioMemory 平台 设计 


容 。 虚 拟 闪 存 存 储 层 可 以 看 成 将 闪存 转换 层 从 固 
这 样 做 的 好 处 是 : 可 以 为 每 个 CPU 核 提 供 对 闪存 的 独立 3 
易 实现 针对 硬件 的 新 特 


" 


的 文件 系统 DFS 


储 层 的 上 层 ， 利 月 


过 表 7 对 第 4 节 所 提 到 关键 技术 进行 总 结 。 


态 人 硬盘 移 到 主机 的 软件 


行 的 直接 访问 ， 减 少数 据 流 程 ， 
生 和 性 能 更 新 ， 依 靠 主机 CPU 和 内 存 处 天 
通过 主机 CPU 和 内 存 的 更 新 而 提升 性 能 ， 简 化 了 存储 流程 ， 减 少 了 引起 宕 机 的 地 方 ， 提 高 


因此 


他 文件 系统 实现 人 简单， 性 能 高 。 
的 尝试 ， 但 是 目前 它 的 技术 被 公司 垄断 ， 价 格 昂 贵 。 
4.6 小 结 

本 节 通 

KT. 基于 闪存 的 固态 人 硬盘 技术 


关键 技术 


关键 点 
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的 数据 处 理 流程 少 于 传统 固态 硬盘。 虚拟 内 存 存 储 层 在 ioMemory 平台 处 于 系统 的 内 核 中 ， 
实现 了 以 下 功能 : 执行 对 闪存 的 重 映射 、 磨 损 均 衡 等 算法 , 用 日 志 结 构 分 配 策略 隐藏 擦 除 块 
的 延迟 ， 处 理 坏 页 恢复 ， 为 上 层 提 供 虚 拟 的 64 位 块 寻 址 ; 保持 对 现 有 的 文件 系统 和 数据 库 


Ml 


EE 算法， 容易 


^ (Direct File System) 处 于 虚拟 闪存 存 
虚拟 闪存 存储 层 的 功能 实现 对 闪存 硬件 设备 的 存储 管理 。 
ioMemory 平台 是 对 基于 闪存 的 新 的 体系 结构 


DFS 相 比 
的 一 次 成 功 


于 页 日 


的 地 址 映射 


地 址 


映射 以 页 为 粒度 ,灵活 但 


占用 内 存 


基于 块 的 地 址 映射 


地 址 映射 
存 空间 利用 率 低 


以 块 为 粒度 ,占有 


日 内 存 最 少 但 不 灵活 ， 闪 


混合 式 地 址 映射 


频繁 更 新 的 数据 维护 基于 
据 维护 基于 块 的 地 址 
存 空间 利用 率 都 适中 ， 但 


pu 


公公 了 
SI 


操作 不 能 避免 


H, 
AE 


的 地 址 映射 表 , 其 余数 
AM. 灵活 性 、 内 存 占用 和 内 


变 长 式 地 址 映射 


求 的 映射 采用 乡 


粒度 


R 据 每 个 写 请 求 的 特征 为 其 
大 的 顺序 写 请 求 的 映射 采用 粗 粒 度 , 小 的 随机 写 请 


分 配合 适 的 映射 粒度 ， 


贪心 算法 


收 收益 最 大 ， 但 没有 考虑 


开销 和 磨损 均衡 


选择 有 效 页 数 最 少 的 块 进行 回收 , 可 使 一 次 垃圾 回 


益 - 开 销 比 算法 


综合 考虑 垃圾 回收 收益 、] 
块 ， 不 同 算法 对 这 三 个 因 


素 的 侧重 不 同 


开销 和 磨损 均衡 选择 回收 
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随机 磨损 均衡 


每 隔 一 定时 间 ， 随 机 选择 


块 擦 除 ， 没 有 针对 性 


损 均 衡 


基于 擦 除 次 数 的 磨 


数据 互 换 


本 文 按照 目前 管理 闪存 的 两 利 
的 外 存储 技术 。 文 中 指出 ， 由 于 内 


WE. iy] 
然 会 成 为 日 后 研究 闪存 的 热点 。 
虽然 当前 


每 隔 一 定时 间 , 将 擦 除 次 数 最 多 和 最 少 的 P 


HIRE HS 


软件 体系 结构 分 类 分 析 , 较为 全 面 地 总 结 了 当前 基于 闪存 


存 本 身 的 特性 ， 无 论 采 用 哪 种 软件 体系 结构 ， 噶 地 更 讲 
收 和 磨损 均衡 算法 都 是 使 用 内 存 不 可 避免 的 问题 。 因 


了 


"par. 


E BUSH: 
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T ER. 


比 ， 设 计 更 加 有 效 的 算法 依 


基于 闪存 的 外 存储 技术 已 经 相对 成 熟 , 但 是 依然 存在 缺陷 , 若 想 充 分 发 挥 内 存 
存储 器 的 最 大 价值 ， 未 来 需要 在 以 下 两 个 方 


基于 闪存 的 外 存储 技术 综述 


一 是 设计 闪存 存储 器 新 的 体系 结构 。 目 前 管理 闪存 的 这 两 种 软件 体系 结构 都 不 能 既 充 分 


利用 闪存 特性 又 保证 开发 代价 最 小 。 因 此 , 设计 基于 闪存 的 完整 的 硬件 软件 体系 结构 以 充分 
利用 闪存 特性 并 保证 对 应 用 的 尽量 兼容 ， 达 到 最 优 的 性 价 比 应 成 为 日 后 突破 的 方向 。 


H 


二 是 对 闪存 外 存储 器 所 在 层次 的 重新 定位 。CPU 的 性 能 每 年 提高 约 60%， 而 内 存 子 系 


统 每 年 只 增长 1096, 磁盘 增长 的 则 更 少 。 磁盘 每 24 个 月 就 会 在 容量 上 翻番 , 但 在 过 去 15 年 


HH, 


HE 


其 性 能 只 提高 了 10 W AFARS RARIRELZOHIWITESEOREB ， 而 且 差 距 越 来 


越 大 。 为 了 解决 这 种 性 能 差距 ， 长 期 以 来 都 是 在 存储 系统 上 进行 分 层 存 储 ， 每 层 采 用 不 同 的 


存储 介质 ， 顶 层 的 体积 小 、 速 度 快 ， 与 处 理 器 最 接近 ;而 较 低 的 存储 器 层 ， 虽 然 容量 在 不 断 
增加 ， 但 运行 速度 要 慢 得 多 ， 同 时 还 要 消耗 更 多 的 电力 。 这 种 做 法 虽然 一 定 程度 上 缓解 了 处 


理 器 和 存储 系统 的 性 能 差距 , 但 是 大 量 的 能 源 被 大 型 存储 器 配置 消耗 。 内 存 相对 磁盘 在 性 能 
zo pa e cde 将 CPU, DRAM, NIETEN 
新 定位 ， 使 得 整体 计算 机 系统 高 效 、 节 能 。 
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